|
2015. №3(33)
|
Принятие решений и бизнес-интеллект
|
7–14
|
Голов Николай Игоревич - преподаватель кафедры бизнес-аналитики, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail:ngolov@hse.ru
Ронбак Ларс - Преподаватель факультета компьютерных наук, Университет Стокгольма Адрес: SE-106 91 Stockholm, Sweden. E-mail:lars.ronnback@anchormodeling.com
В данной статье описывается подход для быстрого анализа больших данных в реляционной модели данных. Целью данного подхода является достижение максимального использования высоконормализанных временных таблиц, объединяемых посредством алгоритма соединения слиянием (merge join algorithm). Подход был разработан для методологии Anchor Modeling, предполагающей крайне высокий уровень нормализации таблиц. Anchor Modeling – это новейшая методология построения хранилищ данных, разработанная для классических баз данных и адаптированная для задач больших данных и MPP (массивно-параллельных) баз данных авторами статьи. Anchor Modeling обеспечивает гибкость расширения и высокую скорость загрузки данных, в то время как представленный подход к оптимизации запросов дополняет методологию возможностью «на лету» проводить быстрый анализ больших выборок данных (десятки Тб). В статье описаны и оценены различные подходы к оптимизации планов выполнения запросов для колоночных и обычных (строчных) баз данных. Представлены и сопоставлены результаты теоретических оценок и практических экспериментов на реальных данных, проведенных на платформе колоночной массивно-параллельной (MPP) базы данных HP Vertica. Результаты сравнения демонстрируют, что подход особенно эффективен для случаев нехватки доступной оперативной памяти, в результате чего оптимизатору запросов базы данных при обработке аналитических запросов приходится переходить от наиболее оптимального режима обработки в оперативной памяти (in-memory) к режиму подкачки с жесткого диска. Также изучен вопрос масштабирования нагрузки. Для этого один и тот же анализ производился на кластерах массивно-параллельной СУБД Вертика, состоящих из разного количества серверов. Были испытаны конфигурации из пяти, десяти и двенадцати серверов. Для анализа применялись данные типа «поток кликов» – обезличенные данные о кликах пользователей Авито, крупнейшего российского сайта объявлений. |
|
15–23
|
Масютин Алексей Александрович - аспирант, департамент анализа данных и искусственного интеллекта, факультет компьютерных наук, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail: alexey.masyutin@gmail.com
Социальные сети аккумулируют значительное количество информации, которая позволяет получать дополнительные сведения о поведении людей. В данной работе мы используем данные наиболее посещаемой социальной сети «Вконтакте», чтобы выделять сегменты неплатежеспособных клиентов банка. Во-первых, мы представляем архитектуру центра хранения и обработки данных из социальных сетей. Он включает в себя инструменты для соотнесения реального клиента и его виртуального профиля в социальной сети, парсинг профилей социальной сети, получение данных об активности пользователя через API, и наконец, само хранилище данных. Во-вторых, на исторических данных мы разрабатываем две скоринговые карты, основанные исключительно на данных активности клиента в социальных сетях. Первая карта прогнозирует событие обычного дефолта – выхода на просрочку по ссуде более 90 дней за первые 12 месяцев с момента получения кредита. Вторая скоринговая карта прогнозирует событие мошеннического дефолта. Обе карты используют WOE-трансформацию входящих данных и затем применяют логистическую регрессию по преобразованным данным. В результате данные социальных сетей лучше прогнозируют случаи мошеннических дефолтов, в отличие от обычных случаев просрочки. Качество скоринговых карт находится на приемлемом уровне, что подтверждается ROC-анализом и коэффициентами Джини. Поскольку классические скоринговые системы во многом опираются на кредитную историю клиента, которая зачастую отсутствует у молодых заемщиков, мы считаем, что данные социальных сетей могут служить их заменой. Таким образом, данные социальных сетей могут быть использованы для обогащения классических скоринговых систем банков и микрофинансовых организаций. |
Математические методы и алгоритмы бизнес-информатики
|
24–33
|
Горяинова Елена Рудольфовна - кандидат физико-математических наук, доцент департамента математики, факультет экономических наук, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail: el-goryainova@mail.ru
Шалимова Юлия Андреевна - студентка магистратуры, факультет экономических наук, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail: july.shalimova@yandex.ru
При решении задачи сжатия многомерного вектора показателей используют методы факторного анализа, одним из которых является метод максимального правдоподобия (ММП). В системе коррелированных количественных показателей он позволяет выявить некоррелированные общие факторы, которые без существенной потери информации могут представлять исходные показатели. Нахождение общих факторов проводится с помощью специального представления корреляционной матрицы наблюдаемых признаков. Однако коэффициент корреляции не определен для признаков, представленных в номинальной шкале, а для признаков, имеющих нелинейный характер зависимости, не может служить измерителем силы связи. Для таких ситуаций традиционные методы факторного анализа оказываются малоэффективными. В статье предложены две модификации ММП, использующие в качестве мер связи признаков ранговые коэффициенты корреляции Спирмена и коэффициенты Крамера. Для сравнения качества сжатия традиционного и двух адаптированных ММП проведен численный эксперимент. С помощью метода Монте-Карло смоделированы 12-мерные векторы, состоящие из четырех независимых трехмерных подвекторов, координаты которых имеют зависимости линейного и нелинейного типа. Установлено, что из трех рассмотренных методов только адаптированный метод, использующий коэффициенты Крамера, способен верно объединить в общий фактор показатели, связанные немонотонным типом зависимости. С другой стороны, в тех случаях, когда зависимость между признаками носит монотонный характер, этот метод менее эффективен, чем два других. Для демонстрации работоспособности указанных методов на реальных данных представлено решение задачи снижения размерности динамики относительного прироста потребительских цен в 2008-2014 годах для группы продовольственных товаров. |
Анализ данных и интеллектуальные системы
|
34–43
|
Лаптев Владимир Владимирович - кандидат искусствоведения, доцент кафедры инженерной графики и дизайна Института металлургии, машиностроения и транспорта, Санкт-Петербургский государственный политехнический университет Адрес: 195251, г. Санкт-Петербург, ул. Политехническая, д. 29. E-mail: laptevsee@yandex.ru
Орлов Павел Анатольевич - старший преподаватель кафедры инженерной графики и дизайна Института металлургии, машиностроения и транспорта, Санкт-Петербургский государственный политехнический университет; старший преподаватель кафедры медиадизайна и информационных технологий, Высшая школа журналистики и массовых коммуникаций, Санкт-Петербургский государственный университет. Адрес: 195251, г. Санкт-Петербург, ул. Политехническая, д. 29. E-mail: paul.a.orlov@gmail.com
Структуры данных являются распространенными показателями в среде управления бизнес-проектами. Инфографика как особое направление коммуникационного дизайна предусматривает ряд графических способов, позволяющих визуализировать информацию такого рода. Применение каждого из имеющихся типов диаграмм сопряжено с определенными ограничениями, связанными с особенностями визуального восприятия и семиотической спецификой. Из-за недостаточной степени изученности был выбран тип структурной диаграммы – потоковая диаграмма Сэнкей, которая часто используется в бизнес-процессах для представления структуры данных. Для выявления методов оценки формы графического образа визуализации структуры данных был проведен эксперимент, в котором в качестве стимула выступала 4-потоковая диаграмма. Результаты глазодвигательной активности человека фиксировались с помощью системы видеоокулографии или ай-трекера. В качестве метода анализа были приняты иерархические дивизимные алгоритмы, работающие с универсальным кластером, состоящим из всех зрительных фиксаций, с последующим пошаговым разбиением его на меньшие части. Было обнаружено, как минимум, четыре кластера, основанных на координатах. В найденной модели присутствовал «входной» кластер и «выходная группа кластеров» и явно определился центральный кластер зрительных фиксаций. При дальнейшем увеличении числа кластеров картина менялась в сторону большей детализации. Очевидно, что прослеживается определенный нарратив при рассматривании диаграммы, выявляющий последовательность «движения» потока, от целого к его структурным частям. В итоге кластерная алгоритмизация их анализа позволяет перевести визуальную интерпретацию структур числовых данных в круг задач поддержки принятия решений, решаемых с помощью программных средств. |
|
44–54
|
Мокеев Андрей Владимирович -старший преподаватель кафедры информационных систем, факультет экономики и предпринимательства, Южно-Уральский государственный университет Адрес: 454080, г. Челябинск, пр. Ленина, д. 76. E-mail:gr.smk@mail.ru
Мокеев Владимир Викторович - доктор технических наук, заведующий кафедрой информационных систем, факультет экономики и предпринимательства, Южно-Уральский государственный университет Адрес: 454080, г. Челябинск, пр. Ленина, д. 76. E-mail: mokeyev@mail.ru
Рассматривается решение задачи распознавания лиц с помощью метода главных компонент (МГК) и линейного дискриминантного анализа (ЛДА). Главная идея подхода МГК+ЛДА состоит в том, что, во-первых, изображение лица проецируется из исходного векторного пространства в подпространства лица главных компонент, во-вторых, для получения линейного классификатора используется линейный дискриминантный анализ. В работе исследуется эффективность подхода МГК+ЛДА для случая, когда изображения лиц не проходят предварительную обработку (масштабирование, поворот, центрирование, выравнивание яркости). Эффективность подхода МГК и ЛДА исследуется на изображениях лиц базы ORL. Показывается, что при увеличении числа изображений в классе учебной выборки, повышается точность распознавания лиц. При небольшом числе изображений для повышения качества распознавания лиц предлагается расширять учебную выборку изображениями, полученными путем масштабирования и поворота исходных изображений. При обработке больших наборов изображений для вычисления главных компонент предлагается использовать методы линейной конденсации и синтеза главных компонент. Метод синтеза главных компонент базируется на разбиении исходного множества изображений на небольшие наборы изображений, получении собственных векторов этих наборов (частных решений) и вычислении собственных векторов исходного набора на основе частных решений. Метод линейной конденсации использует понижение порядка матриц, позволяющее достаточно точно вычислять собственные векторы, собственные значения которых находятся в заданном интервале. Показано, что методы линейной конденсации и синтеза главных компонент позволяют существенно снизить трудоемкость построения классификатора при использовании подхода на МГК+ЛДА, не снижая точности распознавания лиц. |
Информационные системы и технологии в бизнесе
|
55–64
|
Аниканова Мария Андреевна - специалист по облачным решениям, Департамент по работе со средними и малыми организациями и партнерами, Microsoft Россия Адрес: 121614, г. Москва, ул. Крылатская, д. 17/1. E-mail:v-maanik@microsoft.com
Моргунов Александр Федорович - кандидат технических наук, доцент кафедры корпоративных информационных систем, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail: amorgunov@hse.ru
Статья посвящена исследованию возможностей и перспективности автоматизации бизнес-процессов предприятий малого бизнеса с помощью SaaS-приложений, размещенных в публичном облаке. Одним из основных достоинств, присущих облачным решениям, можно считать упрощение ИТ-инфраструктуры при высоком уровне ее масштабируемости и богатой функциональности. Для внедрения облачных аналогов таких «тяжелых» локальных решений, как ERP- или CRM-системы, не требуется больших финансовых инвестиций и временных затрат за счет более простой и гибкой платформы, поддержка которой требует значительно меньших усилий. Это, в свою очередь, дает возможность ИТ-персоналу переориентироваться на более значимые для бизнеса проекты. Одним из наиболее важных достоинств подобного типа решений является тот факт, что большая часть затрат на ИТ переходит из статьи капитальных расходов в операционные, позволяя не изымать значительные финансовые ресурсы из оборота компании. Несмотря на то, что стоимость SaaS-приложений значительно меньше, чем единовременные затраты на внедрение локальных решений, цена ошибки при принятии решения о построении ИТ-инфраструктуры, в том числе и на базе SaaS продуктов, для малых предприятий по-прежнему велика, так как ее перестроение потребует существенных дополнительных затрат и может оказаться критичным для бюджета организации. Поэтому в статье рассматривается набор критериев, позволяющих на этапе планирования ИТ-инфраструктуры малого предприятия определить целесообразность использования технологических возможностей приложений, размещенных в публичном облаке. Все разработанные критерии разделены на три основных группы: функциональные, финансово-экономические и технические. Все они подробно описаны и ранжированы по своей важности с помощью метода экспертной оценки признанных специалистов в сфере облачных технологий и ИТ в целом. С использованием полученных количественных значений критериев выведена формула, в соответствии с которой можно получить показатель, оценивающий целесообразность перевода конкретного бизнес-процесса компании малого бизнеса на облачную платформу. Материалы статьи могут быть интересны как специалистам, занимающимся внедрением информационных систем, так и руководителям предприятий малого бизнеса, для оптимизации расходов на ИТ. |
|
65–73
|
Ямпольский Сергей Михайлович - кандидат технических наук, доцент кафедры бизнес-аналитики, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail:syampolsky@hse.ru
Шаламов Анатолий Степанович - доктор технических наук, научный сотрудник отдела статистических проблем информатики и управления, Институт проблем информатики Российской академии наук Адрес: 119333, г. Москва, ул. Вавилова, д. 44. E-mail: a-shal5@yandex.ru
Кирсанов Александр Петрович - доктор технических наук, профессор кафедры бизнес-аналитики, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail:ki@hse.ru
Огуречников Евгений Владимирович - старший преподаватель кафедры бизнес-аналитики, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail:eogurechnikov@hse.ru
В статье рассматриваются вопросы управления стоимостью жизненного цикла технических изделий в части, касающейся организации и осуществления мероприятий по поставкам запасных частей в рамках их послепродажного обслуживания. Рассмотрен вариант модели сети Петри, которая описывает причинно-следственные связи между событиями, связанными с планированием и управлением поставками на основе использования вероятностной аналитической модели послепродажного обслуживания технических изделий и программного комплекса анализа рисков по технико-экономическим критериям. Результатом работы таких моделей является планирование приемлемого баланса между стоимостью и качеством изделий и его текущее обеспечение, в том числе путем учета и минимизации финансовых рисков. Приведен пример автоматизированного планирования поставок запасных частей. Динамика изменения количества технических изделий, находящихся в эксплуатации, представляется в интегрированном графическом виде, дающем возможность прогнозировать коэффициент исправности изделий, обусловленный наличием исправных изделий на складе заказчика и производительностью ремонтных органов. Обосновано применение метода освоенного объема для анализа рисков отклонения от плана выполнения поставок запасных частей. Отслеживание освоенного объема финансовых средств позволило прогнозировать как успешность завершения поставок запасных частей, так и риски отклонения от намеченных сроков и бюджета. Рассмотрен пример автоматизированного анализа рисков. Оценка степени соответствия затрат бюджетным характеристикам осуществляется с помощью показателя эффективности, который используется для анализа качества функционирования соответствующих подразделений заказчика и корректировки их дальнейшей работы. Для выбранного года показатель эффективности определяется и оптимизируется при заданном коэффициенте исправности для каждого заказчика в процессе автоматизированного планирования поставок запасных частей. Предлагаемый подход является достаточно универсальным, что предопределяет возможность его применения для решения задач управления стоимостью жизненного цикла продукции и услуг в различных организационно-технико-экономических системах. |
|
74–79
|
Сухов Рафаэль Ряхимович - Финансовый управляющий, АНО «Институт «Аптайм» Адрес: 125315, г. Москва, Большой Коптевский проезд, д. 6. E-mail: r.sukhov@uptimetechnology.ru
Амзараков Максим Борисович - Директор, АНО «Институт «Аптайм» Адрес: 125315, г. Москва, Большой Коптевский проезд, д. 6. E-mail: m.amzarakov@uptimetechnology.ru
Исаев Евгений Анатольевич - кандидат технических наук, профессор, заведующий кафедрой управления информационными системами и цифровой инфраструктурой, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики»; заведующий лабораторией, Физический институт имени П.Н.Лебедева, Российская академия наук (РАН) Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail: eisaev@hse.ru
Мальцева Светлана Валентиновна - доктор технических наук, профессор, заведующая кафедрой инноваций и бизнеса в сфере информационных технологий, школа бизнес-информатики, факультет бизнеса и менеджмента, Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20. E-mail: smaltseva@hse.ru
В статье рассматриваются взаимосвязь и взаимовлияние центра обработки данных (ЦОД, дата-центр) и активов предприятия. Цель статьи – дать представление о том, как дата-центр может оказывать влияние на активы компании и их конечную стоимость. Отражены аспекты, важные для понимания причин интереса компаний к правильному формированию объекта инвестирования и последующего учета этих инвестиций как существенной части активов предприятия. Приведено обоснование того, что в составе некоторых предприятий дата-центр сам по себе является важным активом, а в некоторых бизнес-моделях представляет собой ключевой актив компании. Отталкиваясь от определений терминов «активы» и «дата-центр» в статье рассмотрены варианты участия дата-центра в бизнесе предприятии и его влияния на конечную стоимость компании через стоимость ее активов. Рассмотрены примеры того, как дата-центр, по сути, становится предметом производства на крупных предприятиях, бизнес которых построен на хранении, обработке информации и предоставлении услуг по доступу к этой информации. Приведены примеры такого рода предприятий из различных секторов экономики. Затронуты вопросы государственного регулирования, касающиеся требований по созданию дата-центров, необходимых для выполнения регулирующих функций государства. Рассмотрены вопросы корпоративной безопасности предприятия и влияние дата-центра на сохранность информации. Также уделено внимание вопросу опосредованного влияния дата-центра на стоимость активов предприятия, через повышение надежности обработки данных, повышение уровня безопасности хранимых и обрабатываемых данных и, как следствие, влияние на рыночную стоимость предприятия как бизнеса посредством повышения доверия потребителей. |
|
|